<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   统计应用 – 从数据中看规律 | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script type="text/x-mathjax-config">
   MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']], processEscapes: true}});
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML%2CSafe.js&amp;ver=15f5e1fcddf0b88517244c085cc07855" type="text/javascript">
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://blog.cos.name/taoshi/category/%E7%BB%9F%E8%AE%A1%E5%BA%94%E7%94%A8/",
                  host: "http://blog.cos.name",
                  prePath: "http://blog.cos.name",
                  scheme: "http",
                  pathBase: "http://blog.cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466462920: Accept with keywords: (title(0.5):数据,规律, topn(0.466666666667):大家,时代,结论,信息,统计学,基尼系数,数据挖掘,预测,数据分析,测谎仪,结果,模型,学生,计算,统计局,方法,问卷,置信区间,统计分析,样本,规律,文章,问题,伦茨,报告,网站,数据,曲线,课程,数据量).-->
 </head>
 <body class="archive category category-66 light-theme-pale-blue suffusion-custom preset-1000px device-desktop" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    统计应用 – 从数据中看规律
   </h1>
  </div>
  <div class="container" id="xmain">
   <nav class="tab fix" id="nav-top">
    <div class="col-control left">
     <ul class="sf-menu">
      <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-1587 dd-tab" id="menu-item-1587">
       <a href="http://blog.cos.name/taoshi">
        首页
       </a>
      </li>
      <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-1590 dd-tab" id="menu-item-1590">
       <a href="http://blog.cos.name/taoshi/about/">
        关于
       </a>
      </li>
      <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1588 dd-tab" id="menu-item-1588">
       <a href="http://statisticsforfun.com">
        English
       </a>
      </li>
     </ul>
    </div>
    <!-- /.col-control -->
   </nav>
   <!-- /#nav-top -->
   <div class="fix" id="wrapper">
    <div class="custom-header fix" id="header-container">
     <header class="fix" id="header">
      <h1 class="blogtitle left">
       <a href="http://blog.cos.name/taoshi">
        从数据中看规律
       </a>
      </h1>
      <div class="description right">
       快乐统计数据分析
      </div>
     </header>
     <!-- /header -->
     <nav class="tab fix" id="nav">
      <div class="col-control left">
       <!-- right-header-widgets -->
       <div class="warea" id="right-header-widgets">
        <form action="http://blog.cos.name/taoshi/" class="searchform " method="get">
        </form>
       </div>
       <!-- /right-header-widgets -->
       <ul class="sf-menu">
        <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-1587 dd-tab">
         <a href="http://blog.cos.name/taoshi">
          首页
         </a>
        </li>
        <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-1590 dd-tab">
         <a href="http://blog.cos.name/taoshi/about/">
          关于
         </a>
        </li>
        <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1588 dd-tab">
         <a href="http://statisticsforfun.com">
          English
         </a>
        </li>
       </ul>
      </div>
      <!-- /col-control -->
     </nav>
     <!-- /nav -->
    </div>
    <!-- //#header-container -->
    <div class="fix" id="container">
     <div id="main-col">
      <div class="hfeed" id="content">
       <article class="full-content post-2638 post type-post status-publish format-standard hentry category-84 category-66 tag-david-freedman tag-richard-d-de-veaux tag-177 tag-178 category-84-id category-66-id post-seq-1 post-parity-odd meta-position-corners fix" id="post-2638">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/05/25/%ef%bc%bb%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%bd%e4%bb%8e%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e5%85%ac%e5%bc%8f%e5%88%b0%e5%ae%9e%e8%b7%b5%e7%bb%9f%e8%ae%a1%e5%88%86%e6%9e%90/" rel="bookmark" title="[朝花夕拾] 从学习数学公式到实践统计分析">
            [朝花夕拾] 从学习数学公式到实践统计分析
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/05/25/%ef%bc%bb%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%bd%e4%bb%8e%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e5%85%ac%e5%bc%8f%e5%88%b0%e5%ae%9e%e8%b7%b5%e7%bb%9f%e8%ae%a1%e5%88%86%e6%9e%90/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           25
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-05-25T10:10:11+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           想想从小学到大学，在各种课程中我们都是在学习自然界的各种规律。它们之所以称为规律，就是因为它们有可重复性。从数学，物理，化学等自然学科，到历史，经济，社会等人文学科，人们都希望找到“规律”，从而用其解释，预测，和改变周围的世界，就像著名的
          </p>
          <p style="text-align: center">
           $$E = MC^2$$
          </p>
          <p>
           到大学毕业时，我们用二十多年时间积累了各种规律和它们的推导方法。而如何将学到的知识应用到实际中，从小学中做的应用题开始，好像越往上学，我们的课程中关注的也少了。
          </p>
          <p>
           回头看自己大学从概率统计专业毕业时，也觉得自己对书本中学到的各种概率模型，参数估计，回归分析掌握的还不错。直到在伯克利博士学习的第二年，才发现我以前是多天真烂缦，对统计应用是多么不明觉厉了。
          </p>
          <p>
           最难忘的经历是上
           <a href="http://www.stat.berkeley.edu/~census/" target="_blank">
            David Freedman
           </a>
           的应用统计的第一堂课。第一次上课前的几天，他给选课的学生发了封邮件，告诉大家在第一次上课之前要读三篇文章。大家都是好学生嘛，虽然文章加起来一百多页，大家也都在课前认真地读了（最少认为好好读了）。
          </p>
          <p>
           <a href="http://cos.name/wp-content/uploads/2014/05/photoNormal.jpeg">
            <img src="http://cos.name/wp-content/uploads/2014/05/photoNormal.jpeg"/>
           </a>
          </p>
          <p>
           记得当时课程是在埃文斯大楼的十楼小会议厅里进行，这个小厅的窗外景色还真是让人心旷神怡。在 David 介绍了一下课程结构和一些相关安排后，我们就进入了正题：文章讨论。他平静地坐在椅子上问，“大家有什么的问题？ ” 然后，然后就没有然后了。。。
          </p>
          <p>
           沉默，沉默，然后更长得沉默。我们没想到，讨论是需要我们发起，而不只是参与讨论 。过了一会他又问， “对文章有什么问题？ ” 我们就坐在那里超过10分钟，不断地把论文翻来翻试图找到一个意义的问题来问。如果我们不问任何问题，好像我们就永远坐在那里。感觉这是我记忆中最长得十多分钟。这时谁也没有心情来欣赏窗外的美景了。
          </p>
          <p>
           <a href="http://cos.name/wp-content/uploads/2014/05/6815420787_350f31f3f8_z.jpg">
            <img src="http://cos.name/wp-content/uploads/2014/05/6815420787_350f31f3f8_z-500x332.jpg"/>
           </a>
          </p>
          <p>
           课程就以这样的问答模式进行了整个学期。学生先阅读指定论文，然后在课上提问有关文章的各种问题。David耐心地回答每一个问题。问题的范围从“为什么作者选择了这个模型？ ”到“为什么作者不用那个模式？” ，从“模型是否适合要解决得问题？ ”到“数据靠谱吗，支持模型吗？ “ ，从“有没有证据支持这样的结论？ ”到“证据是否和结论有任何关系？ ” 最离谱的是花了半节课来给我们国际学生解释美国小学的PTO（Parent Teacher Organization）的组织形式和日常活动，以便我们了解一篇关于小学教育研究文章的背景。
          </p>
          <p>
           一学期下来阅读的文章的范围包括：吸烟对肺癌影响的研究，心脏过桥手术的有效性，苏联KGB的威胁恐吓形式，用数据指控美国选举不公的官司，使用动物在癌症研究中的作用，对美国人口普查结果进行统计修正的有效性等等。当文章中提及统计方法时，他又会跳出文章，系统地介绍方法的来龙去脉。
          </p>
          <p>
           更有趣的是，我们讨论的文章中大约三分之一是David自己写的。我们必须（至少尝试）批判性地评论这些文章，而且他也很喜欢这么做。有时他会短暂地捍卫一下文章里得方法和结论，然后加入更多自己的批判。
          </p>
          <p>
           想回顾一下我当时到底学了什么？最令人惊讶的是，我已经不记得我们讨论过什么模型或方法了（太错综复杂了） 。当然必须承认这我记性很差有直接关系。但我还是记得一件事：检查数据可靠性，模型的假设，以及模型于要解决问题的关系，而且一次一次地检查！
          </p>
          <p>
           在软件包和计算能力空前爆炸的今天，我们几乎可以在很短时间内完成分析中的所有计算。但是我们从纷杂的数据中通过分析得出合理解释和预测得能力并不一定是改善了。除非我们使用合适的工具来回答合适得问题，我们才能找到规律。批判性地思考分析中的每一步是得到有用结论的唯一靠谱途径。这是我从David那学到的第一课。
          </p>
          <p>
           统计和数据分析之所以有趣，就是在于它接地气的特点。它虽然没有数学物理那么简洁明快，高大上，但它有自己的精彩。
          </p>
          <p>
           <a href="http://sites.williams.edu/rdeveaux/" target="_blank">
            Richard D. De Veaux
           </a>
           写过一篇很有趣的文章
           <a href="http://civilstat.com/wp-content/uploads/2011/08/Mathmusic.pdf" target="_blank">
            Math Is Music; Statistics Is Literature (Or, Why Are There No Six-Year-Old Novelists?)
           </a>
           （数学是音乐；统计是文学（或者说，为什么天下没有六岁的天才作家））。
          </p>
          <p>
           <a href="http://cos.name/wp-content/uploads/2014/05/mathstat.jpg">
            <img src="http://cos.name/wp-content/uploads/2014/05/mathstat-500x382.jpg"/>
           </a>
          </p>
          <p>
           文中提到统计的一些特殊性，也引用P. F. Velleman 在2003年Beyond the Formula conference 的主题报告“
           <a href="http://math.illinoisstate.edu/events/BerkLecturePDF309.pdf" target="_blank">
            Thinking With Data: Seven Unnatural Acts and Ten 400-Year-Old Aphorisms
           </a>
           ”中指出的统计教学中一些困难。
          </p>
          <blockquote>
           <p>
            It is not merely that we hope to teach judgment to sophomores; we are actually asking our students to change the way they reason about the real world. P. F. Velleman in his 2003 keynote address to the Beyond the Formula conference called the skills they must acquire the seven unnatural acts of statistical thinking: （统计不只是要教给高年级本科生如何做判断，我们其实是在要求学生改变他们探索世界的思路，这需要建立七种非常反人类的统计思维。）
           </p>
          </blockquote>
          <ol>
           <li>
            Think critically. Challenge the data’s credentials; look for biases and lurking variables. （批判性地思考。挑战数据的可靠性；寻找可能的偏差和隐藏信息）
           </li>
           <li>
            Be skeptical. Question authority and the current theory. (Well, okay, sophomores do find this natural.)（持怀疑态度。质疑权威和现有理论）
           </li>
           <li>
            Think about variation, rather than about center. （考虑多种可能性，而不只是中心）
           </li>
           <li>
            Focus on what we don’t know. For example, a confidence interval exhibits how much we don’t know about the parameter.（关注我们不知道的。例如，置信区间可以展示我们有多么不了解要估计的参数）
           </li>
           <li>
            Perfect the process. Our best conclusion is often a refined question, but that means a student can’t memorize the ‘answer.’ （尽量完善分析的每一步。最好的结论往往是一个更细致而有趣的问题，因此学生没法靠背‘答案’来学习）
           </li>
           <li>
            Think about conditional probabilities and rare events. Humans just don’t do this well. Ask any gambler. But, without this, the student can’t understand a p-value.（习惯于考虑条件概率和小概率事件。人们其实不是很擅长如此思考。这个可以问问赌博者，若没有这个习惯，学生很难理解p值）
           </li>
           <li>
            Embrace vague concepts. （学会接纳不精确的概念和定义）
           </li>
          </ol>
          <p>
           这些困难也从另一个角度告诉我们学习统计中要注意的问题。我觉得这些对培养学生的创造性和研究能力非常有帮助。而且这些都是跳出我们从小到大学练习的 “A 提出 B” 这种逻辑和知识框架的，当然也和鸡兔同笼问题的各种奥数(吹哨砍头等)解法什么关系都没有。
          </p>
          <p>
           这些思考方式都是从各种数据分析的成功和失败的经历中逐渐培养出来的。如果你有自己感兴趣的问题，大胆地去收集些数据来玩吧，经常和别人交流你的分析过程和结果，批判性地思考自己可能遗漏的地方，一定会有所收获。Get your hands dirty!
          </p>
          <p>
           大家且玩且长进！
          </p>
          <p>
           另外，谢谢吴喜之老师翻译了David Freedman所著的
           <a href="http://www.amazon.cn/统计模型-理论和实践-弗里曼/dp/B003XKNKZG" target="_blank">
            《统计模型：理论和实践》
           </a>
           。绝对的好书，有空时翻翻一定会收获多多。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 10:10
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/david-freedman/" rel="tag">
           David Freedman
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/richard-d-de-veaux/" rel="tag">
           Richard D. De Veaux
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%ba%94%e7%94%a8%e7%bb%9f%e8%ae%a1/" rel="tag">
           应用统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e5%ad%a6%e4%b9%a0/" rel="tag">
           统计学习
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2611 post type-post status-publish format-standard hentry category-152 category-61 category-23 category-84 category-66 category-124 tag-172 tag-114 tag-174 tag-183 tag-173 category-152-id category-61-id category-23-id category-84-id category-66-id category-124-id post-seq-2 post-parity-even meta-position-corners fix" id="post-2611">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/" rel="bookmark" title="[朝花夕拾] 迎接信息时代的统计挑战">
            [朝花夕拾] 迎接信息时代的统计挑战
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/" rel="category tag">
             教育
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%af%bb%e4%b9%a6/" rel="category tag">
             读书
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/#comments">
             1 Response »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           12
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-05-12T21:33:30+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           世事变迁，最近居然忽然有时间坐下来读些东西，重新审视一下这几年统计领域的发展了。粗略回想了一下，惭愧地发现我好像连
           <a href="http://www.stat.berkeley.edu/~binyu" target="_blank">
            博士导师
           </a>
           的文章也没有系统地读过几篇，只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读，了解一下她对统计研究和学科发展的观点。
          </p>
          <p>
           木然回首，那文已在灯火阑珊处。2007年时她写过一篇综述性文章：
           <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
            Embracing Statistical Challenges in the Information Technology Age
           </a>
           , Bin Yu (2007)
           <em>
            Technometrics
           </em>
           , 49(3), 237-248。摘要如下：
          </p>
          <blockquote>
           <p>
            This article examines the role of statistics in the age of information technology (IT). It begins by examining the current state of IT and of the cyber infrastructure initiative aimed at integrating the technologies into science, engineering, and education to convert massive amounts of data into useful information. Selected applications from science and text processing are introduced to provide concrete examples of massive data sets and the statistical challenges that they pose. The thriving field of machine learning is reviewed as an example of current achievements driven by computations and IT. Ongoing challenges that we face in the IT revolution are also highlighted. The paper concludes that for the healthy future of our field, computer technologies have to be integrated into statistics, and statistical thinking in turn must be integrated into computer technologies.
           </p>
          </blockquote>
          <p>
           文中指出统计当今面临的最大挑战是“统计思维与计算技术的相互结合”。其中提到的一个主要例子还就是我博士论文的课题之一：设计更好更快的算法来区分NASA的卫星在南北极拍摄到图片中的空中云层和地面冰雪。
          </p>
          <p>
           <img src="http://i.imgur.com/cyYcPQT.jpg"/>
          </p>
          <p>
           这工作前前后后持续了超过六年的时间。现在回头想想，从中学习到的和体会到的还是挺有好玩的，同时也发现当时还是很二的。文中提到的那些点点滴滴可谓是历历在目，处处伤心泪啊！
          </p>
          <p>
           遥想当年，数据好难得。在合作者的帮助下也等了三个月才拿到两幅云图。唯一知道的就是专家相信卫星拍到的图中背景是冰天雪地的北极苦寒之地，其中有些部分有云层覆盖。记得和彬两个人第一次盯着图看时，彬问：“哪里是云？”我答：“我（gui）哪（cai）知道。” 就这样的开始了那么多年研究。
          </p>
          <p>
           <img src="http://i.imgur.com/aIO3H9A.jpg"/>
          </p>
          <p>
           哎！说你呢：“一不小心就歪楼了。” “是，是，这里面的血泪和欢心故事改天另起个楼。。。“
          </p>
          <p>
           先跳过中间过程，来看一下文中的总结。The cloud detection experience reveals several considerations that arise in interdisciplinary research involving large amounts of data:
          </p>
          <div title="Page 3">
           <div title="Page 3">
            <ol>
             <li>
              Access to good scientific or subject problems and expertise
             </li>
             <li>
              Collection and management of large data sets (including effective transmission and storage and possibly data reduction or feature selection)
             </li>
             <li>
              EDA (visualization and descriptive statistics and possibly also data reduction or feature selection)
             </li>
             <li>
              Processing mode: offline or online (streaming data)
             </li>
             <li>
              Formal modeling with computation and accuracy considerations (estimation and uncertainty assessment)
             </li>
             <li>
              Data fusion from various sources
             </li>
             <li>
              Validation using information from outside statistics(quantitative test data or qualitative validation based on subject matter).
             </li>
            </ol>
           </div>
           <p>
            这总结真是贴心啊。把它们和最近风行的大数据的4V特点（Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值））比一下，好像大V们不太关心专家意见和最后的独立验证，但更关心价值。要不说大数据是公司做的，大科学是学术做的呢 😉
           </p>
           <p>
            开个玩笑啦，其实也不能这么字面理解，价值的体现最终还是在从数据中学到的规律能否预测未知，也就是独立验证。
           </p>
           <p>
            <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
             文章
            </a>
            从跨学科统计研究开始，用她的各种研究经历论述计算与机器学习和它们带来的新机遇，还有当时看大数据（massive data，那时big data 这词还没现在如此时尚）对未来统计发展将带来的改变和展望。文章结尾部分对掌握统计技能之外的其他能力的重要性也有提及：
           </p>
           <div title="Page 10">
            <blockquote>
             <p>
              In addition to statistical skills, social and interpersonal skills are needed to successfully collaborate with scientists and persuade them of the key role of statistics in scientific investigations. The importance of these nontechnical skills in interdisciplinary research suggests the need for a culture change in our community and for these nontraditional skills to be valued and recognized in, for example, tenure reviews, promotions, and awards. Last but not least, we need to educate our graduate and undergraduate students with the relevant technical and interpersonal skills.
             </p>
            </blockquote>
            <div title="Page 11">
             <p>
              最后当然是以眺望远方的姿势给大家希望喽：
             </p>
             <blockquote>
              <p>
               This is a time of data deluge; we can help build the ark and ride on it,
               <strong>
                if we so choose.
               </strong>
              </p>
             </blockquote>
             <p>
              不管你读，或者不读，
              <a href="http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf" target="_blank">
               文章都在那里
              </a>
              ；不管你信，或者不信，时间都会揭晓答案。读后马上感觉有希望哦。
             </p>
            </div>
           </div>
          </div>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 21:33
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3/" rel="tag">
           信息时代
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0/" rel="tag">
           机器学习
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e8%ae%a1%e7%ae%97/" rel="tag">
           统计计算
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2597 post type-post status-publish format-standard hentry category-63 category-61 category-84 category-66 tag-171 tag-170 category-63-id category-61-id category-84-id category-66-id post-seq-3 post-parity-odd meta-position-corners fix" id="post-2597">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="bookmark" title="失联搜救中的统计数据分析">
            失联搜救中的统计数据分析
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/" rel="category tag">
             媒体报道
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/#respond">
             No Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           4月
          </span>
          <span class="day">
           13
          </span>
          <span class="year">
           2014
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2014-04-13T07:50:35+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <blockquote>
           <p>
            大数据时代如何活用数据可视化、大数据与众包、群体智慧、贝叶斯方法等为失联搜救出谋献策？请看下文。
           </p>
          </blockquote>
          <p>
           作者：统计之都创作小组（code99）众筹做业（
           <a href="http://yishuo.org/" target="_blank">
            邓一硕
           </a>
           ，
           <a href="http://blog.sina.com.cn/cattyguan" target="_blank">
            关菁菁
           </a>
           ，
           <a href="http://chenangliu.info/" target="_blank">
            刘辰昂
           </a>
           ，
           <a href="http://yixuan.cos.name/cn/" target="_blank">
            邱怡轩
           </a>
           ，
           <a href="http://blog.cos.name/taoshi/" target="_blank">
            施涛
           </a>
           ，
           <a href="http://weibo.com/u/1572842322" target="_blank">
            熊熹
           </a>
           ，周祺）
          </p>
          <p>
           感谢统计之都资深顾问谢益辉和香港浸会大学数学讲座教授汤涛在写作工程中提出的宝贵建议。
          </p>
          <p>
           <strong>
            引子
           </strong>
          </p>
          <p>
           “MH370”作为航班代码，是近日震惊世界的马来西亚航空公司客机失去联络事件（后简称“马航事件”）留给公众最深刻的数字印象。时至今日，有关马航事件的调查和搜救工作仍在继续。遗憾的是直到截稿时间，MH370航班的残骸仍未找到。
          </p>
          <p>
           在历史上的多次飞机船只等交通工具出现失联情况的突发事件中，数据的收集、分析以及信息的及时发布都在搜寻中起到过关键的作用。比如在2009年，法国航空公司曾有一架民航客机失去联络和踪迹。当时，有不少基于数据分析的文献为失事飞机的搜寻提供了援助。前事不忘，后事之师。本文旨在基于统计学领域的相关知识结合大众可以获知的信息来对马航事件进行了解和分析。本文秉持科普视角，试图阐述在应对马航事件过程中数据收集和数据分析所起到的作用，继而为寻找失联飞机提供一些思路。我们将以寻找失事飞机和船只的事件为线索，来梳理其中涉及到的数据分析思路，以试图减少大家的猜疑和困惑。
          </p>
          <p>
           <strong>
            <span class="more-link fix">
             <a class="more-link" href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/#more-2597">
              Continue reading »
             </a>
            </span>
           </strong>
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 07:50
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8c%e4%bc%97%e5%8c%85/" rel="tag">
           大数据，众包
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%a9%ac%e8%88%aa%ef%bc%8c%e8%b4%9d%e5%8f%b6%e6%96%af%ef%bc%8c%e7%be%a4%e4%bd%93%e6%99%ba%e6%85%a7/" rel="tag">
           马航，贝叶斯，群体智慧
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2483 post type-post status-publish format-standard hentry category-61 category-66 category-3 tag-mac tag-161 tag-160 category-61-id category-66-id category-3-id post-seq-4 post-parity-even meta-position-corners fix" id="post-2483">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/10/03/%e7%bd%91%e4%b8%8a%e9%97%ae%e5%8d%b7%ef%bc%8c%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae%e5%92%8c%e6%95%b0%e6%8d%ae%e9%9a%90%e7%a7%81/" rel="bookmark" title="网上问卷，缺失数据和数据隐私">
            网上问卷，缺失数据和数据隐私
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/" rel="category tag">
             闲扯
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/10/03/%e7%bd%91%e4%b8%8a%e9%97%ae%e5%8d%b7%ef%bc%8c%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae%e5%92%8c%e6%95%b0%e6%8d%ae%e9%9a%90%e7%a7%81/#comments">
             4 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           10月
          </span>
          <span class="day">
           03
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-10-03T11:03:27+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           这几天在忙着搞个网上签名活动，需要找个容易使用的网站来让大家报名，然后把数据库导出来。忽然想起
           <a href="http://cos.name">
            统计之都
           </a>
           办沙龙时的报名网站不错，刚好可以借点经验值来找个靠谱网站来发起网上活动。不优秀也是一种习惯的
           <a href="http://blog.cos.name/taiyun/" target="_blank">
            那块云
           </a>
           建议了一个叫做
           <a href="http://www.wenjuan.com" target="_blank">
            问卷网
           </a>
           的好用网站，可以用来设计各种网上问卷。虽然最近在做缺失数据研究的统计方法的研究中对用网上问卷来了解民意的准确性持极大的怀疑态度，但用来做网上签名应该还是靠谱的。
          </p>
          <p>
           话说
           <a href="http://www.wenjuan.com" target="_blank">
            问卷网
           </a>
           做的还真不错，忙碌了几分钟就搞出一份像样的签名
           <a href="http://www.wenjuan.com/s/Fbyema" target="_blank">
            问卷
           </a>
           。然后自己试了一下提交数据，发现可以在后台数据库中找到，这也就算是开张了，故事也应该就此结束了。可是，事情总是有个可是才有意思。。。
          </p>
          <p>
           就在一切看似正常地收集了几十个签名后，一个朋友在闲聊时说他也签名了。可是我回头一查，为什么数据库中没有他签名的信息和留言呢？做了几个小实验发现原来又是Mac惹的祸。用Mac自带的safari浏览器在问卷网提交答卷时，有一些问卷信息没有记入数据库。好郁闷！一分钟前还在修改关于如何处理缺失数据的论文，被MCAR, MAR, MNAR绞的一脑子浆糊，实际问题马上就出来了。显然这不是MCAR(Missing Completely At Random)的情况。好吧，先找客服
           <a href="http://www.weibo.com/n/%E9%97%AE%E5%8D%B7%E7%BD%91%E5%BE%AE%E5%8D%9A">
            @问卷网微博
           </a>
           问问情况，然后居然发现我是第一个反映这种问题的。汗！
          </p>
          <p>
           这里要表扬一下问卷网的技术人员。大周末的，人家给查了半天，发现了问题。原来是这样的：
          </p>
          <blockquote>
           <p>
            我们技术查了一下，发现有问题的答卷是在你修改问卷前曾经访问过问卷链接，导致之前的问卷信息保存在电脑中（这个现象和浏览器相关），然后提交的时候虽然出现成功页面，但是不会进入结果。如果你需要这些答卷，我们可以帮你修复。之后，我们会修复这个bug。对于带来的不便，深感歉意。
           </p>
          </blockquote>
          <p>
           问卷网作为一家以提供网上问卷为业的网站，虽然技术有些漏洞，但技术人员的很敬业的。从搞统计的角度，虽然网上问卷的selection bias大的出奇，但这个网站还是值得推广，最少用来收集网上签名还是挺有用的。
          </p>
          <p>
           －－－－－－－－－－－－－ 好，称赞完毕, 以下纯吐槽 －－－－－－－－－－－－－－－
          </p>
          <p>
           这个小插曲又让我想起两个和苹果电脑用户别有关的故事。
          </p>
          <p>
           <a href="http://tech.163.com/12/0809/06/88ER5G53000915BF.html" target="_blank">
            旅游网站Orbitz尝试差异搜索
           </a>
           ：
           <a href="http://blog.cos.name/taoshi/category/%E7%BB%9F%E8%AE%A1%E5%BA%94%E7%94%A8/www.orbitz.com" target="_blank">
            Orbitz.com
           </a>
           旅行服务网站发现，在酒店住宿方面，
           <a href="http://tech.163.com/company/apple/">
            苹果
           </a>
           Mac电脑的用户会比其他人多花30%的费用。受这一发现的启发，这家公司开始改变在不同操作系统上的搜索结果顺序。有人指出Orbitz的对Mac用户提供的酒店排序中高价位酒店被排在刚靠前的位置显示。这可是一石激起千层浪，用户纷纷指出被歧视。当天该网站的CEO就赶快上各大电视网节目中解释公司没有歧视对待用户，blah, blah, …… 原来大数据时代也不是什么数据都可以用来变现的，数据隐私问题虽然还没有太提到日程上来（特别是在国内互联网的混战中），但最终要有法规来约束的。
          </p>
          <p>
           <img src="http://media.komonews.com/images/120626_orbitz_mac_pc.jpg"/>
          </p>
          <p>
           另外想起自己在2005年开始转向使用Mac的原因，也是很另类，完全是因为“/”和“\”的原因。当时要处理很多卫星数据，而且每天的数据都存储在自己的目录下，目录下又套着目录。当时写matlab程序要调用无数shell command 来跳转目录，结压缩，拷贝，删除中间文件等等。我一般是在笔记本上调试一下程序，然后到linux工作站上去成夜算。但windows的目录用“\”,而Linux用“/”，于是在笔记本上写的程序又要改了才能在工作站上跑。没有办法，只好把笔记本换成Mac了。从这以后，就再也没拥有过windows机器。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 11:03
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/mac/" rel="tag">
           Mac
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae/" rel="tag">
           缺失数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%97%ae%e5%8d%b7%e7%bd%91/" rel="tag">
           问卷网
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2411 post type-post status-publish format-standard hentry category-152 category-84 category-66 category-76 tag-isca-bulletin tag-153 tag-154 category-152-id category-84-id category-66-id category-76-id post-seq-5 post-parity-odd meta-position-corners fix" id="post-2411">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/07/10/a-conversation-with-professor-bin-yu/" rel="bookmark" title="A conversation with Professor Bin Yu">
            A conversation with Professor Bin Yu
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/" rel="category tag">
             教育
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/" rel="category tag">
             职业介绍
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/07/10/a-conversation-with-professor-bin-yu/#comments">
             6 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           7月
          </span>
          <span class="day">
           10
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-07-10T09:03:56+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           去年就答应了
           <a href="http://www.icsa.org" target="_blank">
            泛华统计协会
           </a>
           去采访博士论文导师
           <a href="http://www.stat.berkeley.edu/~binyu" target="_blank">
            郁彬
           </a>
           ，今年二月时才借道成行，在Berkeley做了采访。
           <a href="http://www.stat.osu.edu/~taoshi/research/papers/Conversation_with_Bin_YU.pdf" target="_blank">
            采访全文
           </a>
           刚刚在
           <a href="http://www.icsa.org/bulletin/index.html" target="_blank">
            这期的 ICSA Bulletin
           </a>
           上登出。
          </p>
          <p>
           先说一句：采访比较长，而且是英文，请有耐心时再读。（注：曾经给某达人试读过关于中国统计看法的部分，刚好赶上人家情绪不好，被直接无视。）
          </p>
          <p>
           我以自己的偏好摘抄几段：
          </p>
          <div title="Page 1">
           <p>
            [Before College]
           </p>
           <blockquote>
            <p>
             A math book from a cousin gave me my first boost into math when I was in 3
             <sup>
              rd
             </sup>
             and 4
             <sup>
              th
             </sup>
             grade. I enjoyed taking exponentials and logarithms using a table in the book.  I  believe doing the math problems provided a refuge of certainty and safety for me during a very turmoil time in China.
            </p>
            <p>
             Another big boost in my interest in mathematics occurred when I was in the Lab School of Normal University in Harbin.  There I had a wonderful and extremely talented sub math teacher, Jianye  Chen (陈建业) in my second year in junior high. [……] Under his strong influence and, in some sense, fulfilling his unrealized dream of going to the math department at Peking University, I chose to do math at Peking University after receiving a very good score on the national college entrance examination in 1980.
            </p>
           </blockquote>
           <p>
            [PKU]
           </p>
           <blockquote>
            <p>
             The first math analysis discussion class was hard for me since I didn’t know how to do the problems. But you know, I really liked math and we had good professors. We didn’t interact a lot with the professors, because that was not the norm.
            </p>
            <p>
             In the entrance exam to graduate school in Peking University, I came first in the math subject exams. However, the professor I wanted to work with did not take me after the oral exam. So I switched into Probability and Statistics, although I originally wanted to do Functional Analysis. That was actually a very good move, a forced one, but it has benefited me tremendously.
            </p>
           </blockquote>
           <p>
            [Qualify Exam at Berkeley]
           </p>
           <blockquote>
            <p>
             <i>
              Shi:
             </i>
             Is it the same format as we took it? 10 questions?
            </p>
            <p>
             <i>
              Yu:
             </i>
             Yes. If you do three, I think, you pass.
            </p>
           </blockquote>
           <p>
            [Marriage]
           </p>
           <blockquote>
            <p>
             In the summer of 1987, I went back to China and got married to my boyfriend who went to graduate school in China in 1985 in architectural history. He was able to join me a year later in Berkeley and went to Berkeley’s School of Architecture. My American friends were a bit shocked to hear that I married someone that I hadn’t seen for two years. It was a bit risky, but looking back, it was the best decision in my life.
            </p>
           </blockquote>
           <p>
            [Suggestion for Young Researchers]
           </p>
           <blockquote>
            <p>
             So I would say to junior people who just started their career: take more risks, instead of being more careful. If you work in a very desirable field like Statistics, you could not go too wrong. Ultimately, whether you enjoy your life or not is because whether you are happy, not because you make the system happy. And the system actually becomes happy because you are happy.
            </p>
           </blockquote>
           <p>
            [Current Status of Statistics]
           </p>
           <blockquote>
            <p>
             I think we are in a golden area for Statistics as an intellectual field. But this field has to be broadly interpreted. Basically a lot of people trained in other fields are also doing this type of work we do.
            </p>
            <p>
             I think if we rise up to the challenge, we will be the leading data scientists. With our great traditions of critical thinking with us, at the same time, embracing machine learning, database, and computing challenges.
            </p>
            <p>
             You take some risks, and you cannot really “fail” too much. You have a safe net. You have a Ph.D. in Statistics. How wrong could it go, right?
            </p>
           </blockquote>
           <p>
            [Statistics in China]
           </p>
           <blockquote>
            <p>
             <i>
              Shi
             </i>
             : By talking with people in China, I do feel industry, especially the high-tech companies, has a huge need for people who can analyze their growing volume of data. Meanwhile, in more scientific area like Biology and Physics, they do have the same need to find people who can work with them in designing and analyzing their experiments and do better science. Is there anything universities in China can do to help foster this type of collaboration?
            </p>
            <p>
             <i>
              Yu
             </i>
             : I think it is kind of happening already. Peking University is talking about a data science center. You have to have cross discipline centers. Any culture change is going to be a slow process. But when there is a need, especially for economic reasons, things just happen in the end. The statistics majors in China, and here too, have to get on top of computing. At senior level, it is easy to find collaborators because you have ideas and a record. If you are a beginner and you cannot even touch the data, who’s going to hire a statistics undergraduate to give advice to a CS undergraduate? It is a constant struggle that we should keep up with computing training of our students. Eventually I hope we will be just as good as computer science majors. That would be the goal, then we will have both the critical thinking and computing skills. I’m not worried about the mathematical part as much not because it is not important. We have been giving our students that, so it is not the urgent need.  The weaker point is the cross-field critical thinking and computing for statistics students.
            </p>
           </blockquote>
           <p>
            [Statistics and Data Science]
           </p>
           <blockquote>
            <p>
             Yu: [……] Lots of people think of statistics as counting numbers, but they don’t know all the exciting things we do. That’s a misconception. Either we go all the way out as a community to change it, which is an uphill battle, or we just embrace data science. Just start saying that we do data science. It is psychology. This is a personal opinion, not representing the view of IMS. I’m just wondering and I think it is a discussion worth having because of the popular unfavorable misconception of statistics.
            </p>
            <p>
             <i>
              Shi
             </i>
             : Yes. I have colleagues who seldom read the Annuals of Statistics. They think the journal mainly concerns about theoretical results and mainly about asymptotic, but they are not.
            </p>
            <p>
             <i>
              Yu
             </i>
             : It is a dilemma in China. Statistics (统计) is 一级学科. Data science is not one of the 学科 yet. But in certain occasions, we can say that we do data science. We are statisticians and we do data science. At least we should go that far.
            </p>
           </blockquote>
           <p>
            [Statistics and Critical Thinking]
           </p>
           <blockquote>
            <p>
             <i>
              Yu
             </i>
             : That’s a gradual process. As I feel being the chair is confronting different opinions. As you said, you cannot form critical thinking without people counter you, even just playing the devil’s advocate. If it is all “great”, it is not critical thinking. Critical thinking is not the most natural thing in the Chinese culture because we tend to want to agree with each other, which has strength in lots of situations, but not in Science. It is something I think the western culture has an edge. In the Chinese culture, there are things called “思辨”and “承传”, but it is more about listening to others than questioning.
            </p>
            <p>
             I’m not disapproving by critiquing, but some students might take that way. So the challenge to me is how to train those students to become critical thinkers. It is almost like they have to establish confidence first somehow.
            </p>
           </blockquote>
           <p>
            [Data Collection and Quality in China]
           </p>
           <blockquote>
            <p>
             <i>
              Shi
             </i>
             : I found it amazing to see on the Internet that comments about any data or any article written by Bureau of Statistics of China are usually like people don’t trust any of them. It seems don’t matter what the report is about. When it says something is good, they don’t trust it; when it says something is bad, they don’t trust it.
            </p>
            <p>
             <i>
              Yu
             </i>
             : Yeah, that’s a big problem you bring up that is data quality. It is not unrelated to plagiarism in doing research at every level. For statistics, if we cannot trust the data, we are done. Maybe theoretical statistics will develop further first before data analysis or data science. But companies care a lot more about good quality of data. They cannot fake their data as much because it is related with their revenue. That’s why I say industry would play a huge role in pushing the development of statistics or data science, whatever it is called, in China.
            </p>
           </blockquote>
           <p>
            我知道，我知道，光摘要就这么长。。。 要是你已经读到这了，那，
           </p>
           <p>
            恭喜你！你的耐心和对统计学科（数据科学）的兴趣足以支持你读
            <a href="http://www.stat.osu.edu/~taoshi/research/papers/Conversation_with_Bin_YU.pdf" target="_blank">
             完全部访谈
            </a>
            的。
           </p>
           <p>
            我保证你会有不同的收获（最少可以看到彬姐在足球队里的风采）。
           </p>
          </div>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 09:03
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/isca-bulletin/" rel="tag">
           ISCA Bulletin
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%ae%bf%e8%b0%88/" rel="tag">
           访谈
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%83%81%e5%bd%ac/" rel="tag">
           郁彬
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2273 post type-post status-publish format-standard hentry category-61 category-23 category-84 category-66 category-76 tag-114 tag-183 tag-134 category-61-id category-23-id category-84-id category-66-id category-76-id post-seq-6 post-parity-even meta-position-corners fix" id="post-2273">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/05/29/%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%97%b6%e4%bb%a3%e5%92%8c%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e9%9c%80%e6%b1%82%ef%bc%8c%e7%bb%9f%e8%ae%a1%e8%bf%98%e6%b2%be%e8%be%b9%e5%90%97%ef%bc%9f/" rel="bookmark" title="大数据时代和数据分析需求，统计还沾边吗？">
            大数据时代和数据分析需求，统计还沾边吗？
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/" rel="category tag">
             职业介绍
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/05/29/%e5%a4%a7%e6%95%b0%e6%8d%ae%e6%97%b6%e4%bb%a3%e5%92%8c%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e9%9c%80%e6%b1%82%ef%bc%8c%e7%bb%9f%e8%ae%a1%e8%bf%98%e6%b2%be%e8%be%b9%e5%90%97%ef%bc%9f/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           5月
          </span>
          <span class="day">
           29
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-05-29T00:26:25+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           大数据时代的悄然到来和计算能力爆炸式增长，让做统计分析的各类人士不禁要重新打量一下自己的技能包，看看是不是很快要被时代浪潮以
           <a href="http://normaldeviate.wordpress.com/2013/04/13/data-science-the-end-of-statistics/" target="_blank">
            大浪淘沙的方式清洗掉了
           </a>
           。
          </p>
          <p>
           到底大数据是怎么来的呢？可以用来干什么呢？我们就先拿2012美国总统大选来举个例子看看。比如说我们想预测在2012年11月6日，
          </p>
          <ul>
           <li>
            <strong>
             问题1:
            </strong>
            奥巴马和罗姆尼谁当选美国总统？
           </li>
          </ul>
          <p>
           我们可以用什么数据来做这个预测呢？最常用的就是民调数据了，通过有选择性的挑选一些可能选民来问他们的倾向。这好像是个传统统计干的事。
           <a href="http://blog.cos.name/taoshi/2012/07/26/john-and-david/" target="_blank">
            早在1962年John Tukey就已经开始做了
           </a>
           。
          </p>
          <p style="text-align: center">
           <img src="http://i.imgur.com/4C6ec.jpg"/>
          </p>
          <ul>
           <li>
            <strong>
             问题2:
            </strong>
            奥巴马和罗姆尼各自赢得了哪些州？
           </li>
          </ul>
          <p>
           这也不难回答，我们还是可以用民调数据了，只不过要在每个州都进行抽样调查，在仔细的分析汇总一下。数据量也就比预测全国的结果时用的多几十倍而已。而且如果知道了那些州两人相差太大，一方就没有必要再大肆花钱做广告了 ：）
          </p>
          <p>
           <img src="http://i.imgur.com/OxBWOGJ.jpg"/>
          </p>
          <ul>
           <li>
            <strong>
             问题3:
            </strong>
            奥巴马和罗姆尼各自赢得了县？
           </li>
          </ul>
          <p>
           再做更小范围，更详细的抽样调查也许可行，也就是在加上几十到几百倍的数据量和相应的花费吧，同时为了提高准确性我们或许还需要收集和用到更多的其他辅助数据，比如各地的人口构成，年龄构成。。。但这个问题如果回答的好的话就可以更有效的投放广告到地方市场了。
          </p>
          <p style="text-align: center">
           <a href="http://www.princeton.edu/~rvdb/JAVA/election2012/">
            <img src="http://i.imgur.com/vZH2Tkq.jpg"/>
           </a>
          </p>
          <p>
           （这个数据可视化很灿，还有更酷的
           <a href="http://www.princeton.edu/~rvdb/JAVA/election2012/" target="_blank">
            在这里
           </a>
           ，by
           <a href="http://www.princeton.edu/~rvdb/" target="_blank">
            Robert J. Vanderbei
           </a>
           , Professor of
           <a href="http://orfe.princeton.edu/">
            Operations Research and Financial Engineering
           </a>
           at Princeton。看，不是统计学家做的吧。）
          </p>
          <ul>
           <li>
            <strong>
             问题4:
            </strong>
            奥巴马或罗姆尼赢得某个人的选票的机会？
           </li>
          </ul>
          <p>
           对这个问题的回答就比较费些劲了，这就牵扯到选战中的精细估计（micro-targeting）了。如果这个估计的可以做的准，对于摇晃选民就可以电话或上门拜访，狂轰滥炸，试图说服了。
          </p>
          <p>
           那怎么对每个人的投票倾向有个好的估计呢？关于个人很多因素就可以粉墨登场了，比如：党派，年龄，性别，职业，婚姻情况，家庭人数，所开汽车型号，所用手机型号，等等。。。这数据量一下就上去了。再加上这些年随着社交网络的兴起，我们可以在用上个人和其他人的社交关系，朋友活动，发帖转帖等等等。。。一下子数据量级就上去了，也就可以成为大数据了。这些海量数据也让我们有机会回答以前很难想到能够回答的问题。
          </p>
          <p>
           从这几个关心问题的转变过程中，我们可以看到与问题对应的所需数据收集和分析方法的演化。当我们关心的问题越细节，越多样化，所需要的资源和技术就越多。
          </p>
          <ul>
           <li>
            <strong>
             问题5:
            </strong>
            如果把第4个问题中的“奥巴马或罗姆尼赢得某个人的选票的机会？”改成“某个人在上网时点击某个展示广告的机会”会怎么样呢？
           </li>
          </ul>
          <p>
           我们这就看到 Google, Baidu等一拥而上，不计成本的计算了，而且所能应用的变量就可能是他们能拿到关于“某人”的所有的线上脚印和线下信息了。
          </p>
          <p>
           <a href="http://www.techinasia.com/baidu-googles-long-lost-search-engine-love-child/">
            <img src="http://i.imgur.com/t7Kh6hH.png"/>
           </a>
          </p>
          <p>
           问题问了一圈，这些听起来都很是十足的统计分析啊。本应该是统计分析人士应该是施展才华的时代，那为何还会有要被时代淘汰的论调呢？记得Leo Brieman 在
           <a href="http://cos.name/2012/02/what-is-the-stat-dept-25-years-from-now/" target="_blank">
            1994年Berkeley 统计系毕业典礼上的讲话
           </a>
           中提到的：
          </p>
          <blockquote>
           <p>
            要知道何去何从，我们必须清楚自己真正所擅长的是什么。统计的核心是什么？需要我们是一流的数学家吗？几乎不用。那是什么呢？
            <strong>
             成为收集信息，分析信息，并得出结论的专家！
            </strong>
            这才是我们真正所擅长的。所以我认为，这正是我们统计学家应有的定位，我们的身份危机才会到解决。
           </p>
          </blockquote>
          <p>
           在大数据的时代，我们还有资格说我们是“
           <strong>
            收集信息，分析信息，并得出结论的专家”
           </strong>
           吗？如果我们不具备收集和处理大数据所需要的计算能力和技巧，没有数据分析的直觉和经验，如何能得出有说服力和经得起检验的结论呢？
          </p>
          <p>
           现在讨论我们是否是一流的数学家好像已经没有很么意义。我们不妨问问自己，比起一流的计算机学家，我们还有何优势能更好的“
           <strong>
            收集信息，分析信息，并得出结论”
           </strong>
           ？当我们数据收集和处理能力越来越强时，大家关心的问题的范围也越来越广，细节要求越来越高，需要的数据越来越多。这个发展趋势不广在商业，计算机信息领域天天看到，我们在科学研究，医疗制药，政府服务等各个方面的能力和雄心都在爆炸式的增长，由此带来的问题和分析需求也在爆炸。
          </p>
          <p>
           在这形势下，我们可以考虑一下在这些牵扯大数据的问题中，统计又如何能更有效的帮助别人分析问题，得出结论。我们的曾经的神器，极限定理以及其赖以生存的测度理论，是否还有那么神奇和有用呢？与此同时我们欠缺的是什么工具呢？如果我们做的理论问题的假设与实际问题和数据的统计距离太显著，还有没有必要钻这牛角尖？如果我们不和做实际问题的一起工作，一起了解问题的细节，又怎能帮助他们呢？
          </p>
          <p>
           从另一个角度看，我想在拥有与计算机专业的同事相差不算远的计算机技能的基础上，统计专科在数据收集方法（试验设计，抽样方法等），模型选择以及模型对outlier和模型假设的敏感度，在数据支持下对可能结论的批判型思维，以及对结论的不确定型描述等方面还是很大优势的。不过这些方面的技能好像还都不是简单的靠读理论统计课本能直接学习到或证明数学定理能解决的，它们都是在解决实际问题和数据分析的过程中通过不断犯错误来提高的。
          </p>
          <p>
           当然了，“拥有与计算机专业的同事相差不算远的计算机技能的基础上” 是一个很大很大的需要检验的假设，要拥有这样的基础需要从课程选择，课外导向，个人学习规划等方面出发主动的学习。就像 Michael Jordan，
           <em>
            在
            <a href="http://huati.weibo.com/k/21%E4%B8%96%E7%BA%AA%E7%9A%84%E8%AE%A1%E7%AE%97%E5%A4%A7%E4%BC%9A?from=510">
             #21世纪的计算大会#
            </a>
           </em>
           上做”大数据的分治和统计推断”的
           <a href="http://blog.cos.name/taoshi/2012/12/18/大数据，统计精度与计算复杂度/" target="_blank">
            主题演讲中提到的
           </a>
           ：
          </p>
          <blockquote>
           <p>
            If you didn’t understand a lot of the talk, it is a bit technical, maybe you should go take some statistics class if you are a computer scientist. If you are a statistician, I don’t know if any of you are here, you probably should take some computer science classes.
           </p>
           <p>
            The future is for those people who can take these two fields and integrate them into one brain, not having to bring every project to statisticians, trying to have them talking to computer scientists using some translation software. But one brain can bring these ideas jointly together. How do I think about my statistical risk and the errors I’m going to make when data come into a computer and how do I think about stating that so I don’t have to break when I have more than a few hundred thousand data points.
           </p>
          </blockquote>
          <p>
           <embed align="middle" allowfullscreen="true" allowscriptaccess="always" height="400" quality="high" src="http://player.youku.com/player.php/sid/XNDg3ODE1MzU2/v.swf" type="application/x-shockwave-flash" width="480">
           </embed>
          </p>
          <p>
           当统计学培养出来的学生能得心应手的对（大）数据进行分析时，叫不叫数据科学就无所谓了，因为社会的需求会最终决定一个专业的方向和发展。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 00:26
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" rel="tag">
           大数据
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" rel="tag">
           统计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e8%ae%a1%e7%ae%97/" rel="tag">
           计算
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-1907 post type-post status-publish format-standard hentry category-61 category-23 category-84 category-66 category-76 tag-180 tag-130 tag-131 tag-132 category-61-id category-23-id category-84-id category-66-id category-76-id post-seq-7 post-parity-odd meta-position-corners fix" id="post-1907">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/04/05/%e4%b8%89%e6%9c%88%e7%bb%9f%e8%ae%a1%e4%b9%8b%e9%83%bd%e6%b2%99%e9%be%99%e8%a7%81%e9%97%bb/" rel="bookmark" title="三月统计之都沙龙见闻">
            三月统计之都沙龙见闻
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/" rel="category tag">
             职业介绍
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/04/05/%e4%b8%89%e6%9c%88%e7%bb%9f%e8%ae%a1%e4%b9%8b%e9%83%bd%e6%b2%99%e9%be%99%e8%a7%81%e9%97%bb/#comments">
             2 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           4月
          </span>
          <span class="day">
           05
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-04-05T00:30:43+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           两星期前和
           <a href="http://weibo.com/u/1862459915" target="_blank">
            西二旗著名民工
           </a>
           参加了
           <a href="http://cos.name" target="_blank">
            统计之都
           </a>
           举办的沙龙活动。在沙龙中能同时与业界工作的朋友和在校学生进行交流，收获很多。首先要谢谢统计之都参加这次活动的组织者。之后忙于各种闲事而未能总结，现在补上。
          </p>
          <p>
           我先从
           <a href="http://cos.name/about/" target="_blank">
            统计之都的主页
           </a>
           上抄一段：
          </p>
          <blockquote>
           <p>
            纵观现今国内统计学理论和应用的发展，一方面我们不难发现统计学在应用领域的巨大潜力——现代管理、咨询、商业、经济、金融、医药、生物等等，无不需要数据的力量，而另一方面我们也不得不承认，国内统计学的应用很大程度上受理论的制约——无论是应用界的人们对统计学基础理论知识的欠缺，还是学术界所研究的理论对应用领域问题的轻视。
           </p>
          </blockquote>
          <p>
           我感觉把上面文字中的“统计学”改成“数据科学”也不太偏颇。
          </p>
          <p>
           言归正传，首先大家各自介绍门派，在这中间就听到工业界对数据分析能力的需求，好像大家都有数据可分析。百度，腾讯，京东，品友等等就算了吧，新华社也要凑热闹，好吧。面对网络信息和电子商务带来的大量数据，大家很关心的问题就是如何从它们中提取出有用的信息来（当然能变现就更好了）。
          </p>
          <p>
           讨论当然是以向
           <a href="http://weibo.com/u/1862459915" target="_blank">
            西二旗民工余凯
           </a>
           讨教最近如火如荼的Deep Learning开始了。余凯给大家介绍了Deep Learning和Neural Networks以及它们在百度多媒体方面的应用。其中提到的语音输入和全网搜图很神奇。虽然没细讲，我还是觉得余凯提到的浮点计算和定点计算很有趣。我们做统计的平时是很少去考虑这些计算速度和精度的平衡的。
          </p>
          <p>
           工业界的朋友提到招到的学生开始时不懂业务，只懂公式。同时在校学生也提出觉学得不实际，不知学到的方法公式在实际中怎么用。那怎么办呢？靠天靠地不如靠自己哦。见到有趣的问题，可以上手的数据，就拿来试试先。另外走出校园，到公司或其他单位实习一下也可能会很有帮助。虽然教育和社会需求的接轨可能要一定时间和过程，但个人的主观能动性还是很有潜力的。
          </p>
          <p>
           作为统计专科的学生，学些数据库知识，多练习一下编程，再加上些对实际问题的了解，应该是大有用武之地的。
          </p>
          <p>
           沙龙也来很多原来从事别的行业而后来转进数据分析行业的人士，比如这次
           <a href="http://weibo.com/lseaman" target="_blank">
            品友来的数据架构师
           </a>
           以前就研究火星电离层的（不明觉厉）。还有写了
           <a href="http://cos.name/2013/01/story-of-normal-distribution-1/" target="_blank">
            正态分布的前世今生
           </a>
           和
           <a href="http://cos.name/2013/01/lda-math-gamma-function/" target="_blank">
            LDA系列
           </a>
           的
           <a href="http://weibo.com/rickjin" target="_blank">
            rickjin
           </a>
           也不是统计专科出身的。不论原来是做什么专科的，大家在用数据分析问题，解决问题，再提出问题这个屋檐下开心的交流了一个下午。
          </p>
          <p>
           数据分析在中国的大规模应用这几年才刚刚开始，但是发展飞速。希望以后能更多看到这样对其发展有促进作用的沙龙活动。最后再次感谢组织这次活动的
           <a href="http://weibo.com/taiyun" target="_blank">
            统计制度小二
           </a>
           。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 00:30
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="tag">
           数据挖掘
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%b2%99%e9%be%99/" rel="tag">
           沙龙
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e4%b9%8b%e9%83%bd/" rel="tag">
           统计之都
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e6%95%99%e8%82%b2/" rel="tag">
           统计教育
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2173 post type-post status-publish format-standard hentry category-63 category-61 category-84 category-66 tag-128 tag-127 tag-126 category-63-id category-61-id category-84-id category-66-id post-seq-8 post-parity-even meta-position-corners fix" id="post-2173">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2013/02/04/%e4%b8%ad%e5%9b%bd%e5%9f%ba%e5%b0%bc%e7%b3%bb%e6%95%b0%e4%bc%b0%e7%ae%97/" rel="bookmark" title="中国基尼系数估算中的统计问题">
            中国基尼系数估算中的统计问题
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/" rel="category tag">
             媒体报道
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/" rel="category tag">
             统计
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2013/02/04/%e4%b8%ad%e5%9b%bd%e5%9f%ba%e5%b0%bc%e7%b3%bb%e6%95%b0%e4%bc%b0%e7%ae%97/#comments">
             5 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           2月
          </span>
          <span class="day">
           04
          </span>
          <span class="year">
           2013
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2013-02-04T09:00:13+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           看了基尼系数被吵的沸沸扬扬，咱也来掺糊一下。先从
           <a href="http://baike.baidu.com/view/186.htm" target="_blank">
            百度百科上抄一段
           </a>
           ：
          </p>
          <blockquote>
           <p>
            基尼系数（Gini coefficient），或译坚尼
            <a href="http://baike.baidu.com/view/960.htm" target="_blank">
             系数
            </a>
            ，是20世纪初意大利
            <a href="http://baike.baidu.com/view/31551.htm" target="_blank">
             经济学
            </a>
            家基尼，根据
            <a href="http://baike.baidu.com/view/3367636.htm" target="_blank">
             劳伦茨曲线
            </a>
            所定义的判断
            <a href="http://baike.baidu.com/view/604597.htm" target="_blank">
             收入
            </a>
            <a href="http://baike.baidu.com/view/4646736.htm" target="_blank">
             分配公平
            </a>
            程度的
            <a href="http://baike.baidu.com/view/605645.htm" target="_blank">
             指标
            </a>
            。是
            <a href="http://baike.baidu.com/view/339062.htm" target="_blank">
             比例
            </a>
            数值，在0和1之间，是国际上用来综合考察
            <a href="http://baike.baidu.com/view/10427.htm" target="_blank">
             居民
            </a>
            内部
            <a href="http://baike.baidu.com/view/604597.htm" target="_blank">
             收入
            </a>
            分配差异状况的一个重要分析指标。
           </p>
           <p>
            2012年12月初，
            <a href="http://baike.baidu.com/view/4906.htm" target="_blank">
             西南财经大学
            </a>
            中国家庭金融调查在京发布的报告显示，2010年中国家庭的基尼系数为0.61，大大高于0.44的全球平均水平。2013年
            <a href="http://baike.baidu.com/view/171909.htm" target="_blank">
             国家统计局
            </a>
            局长
            <a href="http://baike.baidu.com/view/491534.htm" target="_blank">
             马建堂
            </a>
            公布了过去十年中国基尼系数，系数导向意义引发关注。
           </p>
          </blockquote>
          <p>
           关于同一指数的两个差异很大的（点）估计，让大家有些摸不到头脑。对这两个不同估计的报道在这可以找到：
          </p>
          <ul>
           <li>
            <a href="http://finance.sina.com.cn/china/20121209/092913944148.shtml">
             2012年12月9日
            </a>
            ，媒体开始报道西南财经大学中国家庭金融调查在京发布的报告， 调查显示中国基尼系数达0.61。一时议论纷纷。这个“基尼系数”的微指数也随之飙升。
           </li>
           <li>
            <a href="http://finance.sina.com.cn/china/bwdt/20130118/124114331770.shtml" target="_blank">
             2013年1月18日
            </a>
            ，统计局：去年基尼系数为0.474 自08年起逐年回落。 公布当天，“基尼系数”的微指数更上一层楼。
           </li>
          </ul>
          <p>
           <a href="http://i.imgur.com/ZyF0Ux3.jpg">
            <img src="http://i.imgur.com/ZyF0Ux3.jpg"/>
           </a>
          </p>
          <p>
           而且和“统计局”的微指数还有些惺惺相惜。
          </p>
          <p>
           <img src="http://i.imgur.com/RveMZCi.png"/>
          </p>
          <p>
           那这基尼系数到底是个神马东西呢？根据在 Wikipedia 上的学习，让我来班门弄斧的解释一下（经济学家的砖头请等会在扔）
          </p>
          <p>
           首先，这个系数是关于一群 ($n$个) 人的，用统计的话讲，
           <strong>
            它是个总体的一个特征
           </strong>
           （你要叫参数也行）。对这群人咋定义这基尼系数呢？
          </p>
          <p>
           假设所有人的收入从小到大排序后是 $\{X_1, X_2, \ldots, X_n\}$， 到第 j 人为止的累计收入为 $\{S_j = X_1 + X_2 + \cdots + X_j,$ $ j=1, 2, \ldots, n\}$。到这了索性再把累计收入占人群总收入的比例$\{R_j = S_j / S_n, j=1, 2, \ldots, n\}$也一起算了。然后就可以画大名鼎鼎的
           <a href="http://en.wikipedia.org/wiki/Lorenz_curve" target="_blank">
            劳伦茨曲线
           </a>
           了，其实就是把$\{1/n, 2/n, \ldots, n/n \}$ 和$\{R_1, R_2, \ldots, R_n\}$匹配一下画个散点图（在R中用”l”选项就成线了），也就有了下面的Lorenz Curve。
          </p>
          <p style="text-align: center">
           <a href="http://en.wikipedia.org/wiki/Gini_coefficient">
            <img src="http://i.imgur.com/6cjwgLv.png"/>
           </a>
          </p>
          <p>
          </p>
          <p>
           如果收入绝对公平，$X_1=X_2=\cdots =X_n$，那这曲线就被掰直了（图中的Line of Equality）。劳伦茨曲线越靠近该直线就代表人群中的收入越平均。反之就越不平均。怎么刻画这两条线之间的差距呢？基尼系数就应运而生了：图中两条线中的面积（$A$）占总面积（$A+B$) 的比例
          </p>
          <p>
           \[\frac{A}{A+B}\]
          </p>
          <p>
           就是这神奇的系数了。
          </p>
          <p>
           按理说这基尼系数对国民经济刻画还是应该有些作用的，比如：联合国有关组织规定：通常把0.4作为收入分配差距的“警戒线”，0.6以上表示收入差距悬殊。
          </p>
          <p>
           对自己科普了之后，就好理解不同报道中的差异了。既然基尼系数是人群（国家）总体特征，要算它就的知道
           <strong>
            每个人
           </strong>
           的“
           <strong>
            收入
           </strong>
           ”。去把每个人收入数据搞齐费时费力，可能人都把十年前的收入忘了时，还没被问到呢。咋办呢？这个咱在行：抽样调查然后统计估计！这也就有了不同的抽样调查得到不同结果的情况了。
          </p>
          <p>
           结果不完全相同当然没问题，是抽样就有误差。但当两个试图估计同样总体特征的估计值之间得差距大到抽样误差没法解释的程度（有法解释吗？），那旁观者也就只好认定最少其中一个是不准确的了（当然也没法排除两个都不准确的可能性）。
          </p>
          <p>
           于是也就有了2013年2月2号的释疑文章：
           <a href="http://news.sina.com.cn/c/2013-02-02/023926181923.shtml?bsh_bid=189552118" target="_blank">
            统计局官员撰文释疑我国基尼系数数据来源
           </a>
           。
          </p>
          <ul>
           <li>
            国家统计局住户调查办公室主任王萍萍发表署名文章进行解释，称我国城乡住户收支调查共有14万户样本，这是基尼系数的基础数据。而这些数据来源明确，样本规范。
           </li>
           <li>
            王萍萍文中介绍，新指标是指2012年12月份以后实施的一体化住户调查制度中的可支配收入指标。新的可支配收入指标中既包括现金收入，也包括实物收入。按照来源可分为：
            <strong>
             工资性收入、经营净收入、财产净收入、转移净收入和自有住房折算净租金。
            </strong>
           </li>
           <li>
            在城乡合并样本数据的基础上，依据基尼系数计算公式，利用SAS(统计分析系统)软件计算出了全体居民的可支配收入基尼系数。
           </li>
          </ul>
          <p>
           如果有人有闲往这些页面下部的“我有话说”看一下，就还真得对统计局捏把汗。
          </p>
          <p>
           不管统计局得数据多么来源明确，样本规范，看官就是不信，而且好像没有一个信的。撇开对对样本规范的看法，大家对统计局对“收入”的官方定义都不怎么买帐，这也是统计局工作的为难之处：在现在的社会现实情况下去抽个样本了解收入。
          </p>
          <p>
           要是你今天有幸被抽中，你会怎么回答呢？这还真不是统计局能单独解决的问题。（另外，SAS也很不幸得躺着中了一枪 :)）
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 09:00
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/%e5%8a%b3%e4%bc%a6%e8%8c%a8%e6%9b%b2%e7%ba%bf/" rel="tag">
           劳伦茨曲线
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%8f%82%e6%95%b0%e4%bc%b0%e8%ae%a1/" rel="tag">
           参数估计
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%9f%ba%e5%b0%bc%e7%b3%bb%e6%95%b0%ef%bc%8c%e7%bb%9f%e8%ae%a1%e5%b1%80%ef%bc%8c%e5%be%ae%e6%8c%87%e6%95%b0/" rel="tag">
           基尼系数，统计局，微指数
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-2122 post type-post status-publish format-standard hentry category-61 category-23 category-66 tag-bootstrape tag-michael-jordan tag-123 tag-64 category-61-id category-23-id category-66-id post-seq-9 post-parity-odd meta-position-corners fix" id="post-2122">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2012/12/18/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8c%e7%bb%9f%e8%ae%a1%e7%b2%be%e5%ba%a6%e4%b8%8e%e8%ae%a1%e7%ae%97%e5%a4%8d%e6%9d%82%e5%ba%a6/" rel="bookmark" title="大数据，统计精度与计算复杂度">
            大数据，统计精度与计算复杂度
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="category tag">
             数据挖掘
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2012/12/18/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8c%e7%bb%9f%e8%ae%a1%e7%b2%be%e5%ba%a6%e4%b8%8e%e8%ae%a1%e7%ae%97%e5%a4%8d%e6%9d%82%e5%ba%a6/#comments">
             7 Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           12月
          </span>
          <span class="day">
           18
          </span>
          <span class="year">
           2012
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2012-12-18T04:18:27+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           大数据好热好热啊！统计的时代好像飘然而至了。可我们准备好了吗？答案吗，当然还是，“it depends”。
          </p>
          <p>
           最近看到的很多在大数据上有进展的问题基本上是预测问题，比如：搜索问题，语音图像识别问题，推荐系统问题，广告放送问题，社交网络问题。。。 问题的答案和算法的结果一般是一个或一串预测值。算法也是百花齐放：各类回归，各类聚类，矩阵分解，深度学习。。。
          </p>
          <p>
           这些预测值的准确性基本是靠算法在独立验证数据集上的表现来刻画。忽然间统计的一些基本概念，像标准差，置信区间，一类二类错误，等等都被大数据淹没的无影无踪。当忽然间体会到理想很丰满，现实很骨感的书本与实践的差距时，摆弄惯了$1 / \sqrt{n}$ 的统计人（我也算一员）有些无所适从。
          </p>
          <p>
           在数据和算法当道的时代，有时不仅要问“大数据和统计还有关系吗？” 不妨听听这个报告：
          </p>
          <blockquote>
           <p>
            <em>
             加州大学伯克利分校电气工程与计算机系、统计学系教授Michael Jordan，在
             <a href="http://huati.weibo.com/k/21%E4%B8%96%E7%BA%AA%E7%9A%84%E8%AE%A1%E7%AE%97%E5%A4%A7%E4%BC%9A?from=510">
              #21世纪的计算大会#
             </a>
             上做”大数据的分治和统计推断”的主题演讲，就解决大数据集中获得置信区间和大型矩阵求全法的问题，提出了新的解决方案。
            </em>
           </p>
          </blockquote>
          <p>
           <embed align="middle" allowfullscreen="true" allowscriptaccess="always" height="400" quality="high" src="http://player.youku.com/player.php/sid/XNDg3ODE1MzU2/v.swf" type="application/x-shockwave-flash" width="480">
           </embed>
          </p>
          <p>
           讲座主要是讲大数据下统计和计算的结合问题，同时提出用subsample的方法在大数据上来建立bootstrape 置信区间的。对，不光是关心估计或预测，同时想给出置信区间。统计方法对不确定性的刻划在大数据一样重要，只不过大家还没有足够精力和计算能力来估计它。
          </p>
          <p>
           如果你没太听懂这讲座中提到的方法，没关系。可以跳到 33分钟听结尾的一席话。
          </p>
          <blockquote>
           <p>
            If you didn’t understand a lot of the talk, it is a bit technical, maybe you should go take some statistics class if you are a computer scientist. If you are a statistician, I don’t know if any of you are here, you probably should take some computer science classes.
           </p>
           <p>
            The future is for those people who can take these two fields and integrate them into one brain, not having to bring every project to statisticians, trying to have them talking to computer scientists using some translation software. But one brain can bring these ideas jointly together. How do I think about my statistical risk and the errors I’m going to make when data come into a computer and how do I think about stating that so I don’t have to break when I have more than a few hundred thousand data points.
           </p>
           <p>
            That’s just not what we have been teaching students. And, so, we are still not doing a good job in teaching students, and we may talk about that later. Even though there are classes on this, you guys can go and learn it by yourself. If you are taking computer science classes, take a few stats classes. Pick some books, sit them by your bed and read them every night, and make sure you can do these two things together. This is the future of the field.
           </p>
           <p>
            Thank you!
           </p>
          </blockquote>
          <p>
           既然报告中提到了翻译软件，我也就随机的试了一下百度翻译：
          </p>
          <blockquote>
           <p>
            如果你不懂的许多谈话，这是一个有点技术，也许你应该采取一些统计类如果你是电脑科学家。如果你是一个统计学家，我不知道如果你在这里，你也许应该采取一些计算机科学课。
           </p>
           <p>
            未来是为这些人谁可以把这两个领域和整合成一个大脑，不必把每一个项目的统计人员，想让他们谈论计算机科学家使用翻译软件。但一个大脑可以把这些想法联合在一起。我怎么觉得我的统计风险和错误，我要当数据进入计算机，我怎么想说，所以我没有休息的时候，我已经超过几十万的数据点。
           </p>
           <p>
            这不是我们所教学生。和，那么，我们还是做得不好的学生在教学中，我们可以谈一下。即使有课上，你们可以去学习一下。如果你是以计算机科学课，带几个属性类。拿一些书，坐在你的床上，他们每天晚上读他们，并确保你能做到这两件事一起。这是该领域的未来。
           </p>
           <p>
            谢谢！
           </p>
          </blockquote>
          <p>
           还不错。最后多说一句，第一次见Michael Jordan穿的如此正式 🙂
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 04:18
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/bootstrape/" rel="tag">
           bootstrape
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae%ef%bc%8cmichael-jordan/" rel="tag">
           大数据，Michael Jordan
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e6%8e%a8%e6%96%ad/" rel="tag">
           统计推断
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4/" rel="tag">
           置信区间
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <article class="full-content post-1674 post type-post status-publish format-standard hentry category-61 category-66 tag-roc-cruve tag-wonder-woman tag-70 tag-69 tag-72 category-61-id category-66-id post-seq-10 post-parity-even meta-position-corners fix" id="post-1674">
        <header class="post-header title-container fix">
         <div class="title">
          <h2 class="posttitle">
           <a class="entry-title" href="http://blog.cos.name/taoshi/2012/07/16/%e6%b5%8b%e8%b0%8e%e4%bb%aa%e4%b8%8e%e9%bb%84%e9%87%91%e5%a5%97%e7%b4%a2/" rel="bookmark" title="测谎仪与黄金套索">
            测谎仪与黄金套索
           </a>
          </h2>
          <div class="postdata fix">
           <span class="category">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/" rel="category tag">
             数据分析
            </a>
            ,
            <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/" rel="category tag">
             统计应用
            </a>
           </span>
           <span class="comments">
            <span class="icon">
            </span>
            <a href="http://blog.cos.name/taoshi/2012/07/16/%e6%b5%8b%e8%b0%8e%e4%bb%aa%e4%b8%8e%e9%bb%84%e9%87%91%e5%a5%97%e7%b4%a2/#respond">
             No Responses »
            </a>
           </span>
          </div>
          <!-- /.postdata -->
         </div>
         <!-- /.title -->
         <div class="date">
          <span class="month">
           7月
          </span>
          <span class="day">
           16
          </span>
          <span class="year">
           2012
          </span>
         </div>
        </header>
        <!-- /.title-container -->
        <span class="post-format-icon">
        </span>
        <span class="updated" title="2012-07-16T14:36:56+00:00">
        </span>
        <div class="entry-container fix">
         <div class="entry entry-content fix">
          <p>
           <a href="http://www.stat.cmu.edu/~fienberg/" target="_blank">
            Stephen E. Fienberg
           </a>
           教授五月份在
           <a href="http://www.stat.osu.edu" target="_blank">
            系里
           </a>
           的
           <a href="http://www.stat.osu.edu/event/cl-and-md-rustagi-memorial-lecture-statistics-service-nation" target="_blank">
            C.L. and M.D. Rustagi Memorial Lecture
           </a>
           中给了个 Statistics in Service to the Nation 的报告。那时就想把其中一些有趣的话题记下来，直到今天才用空查了些相关资料。那就从报告最后提到的测谎仪和
           <a href="http://zh.wikipedia.org/wiki/李文和" target="_blank">
            李文和
           </a>
           （
           <a href="http://en.wikipedia.org/wiki/Wen_Ho_Lee" target="_blank">
            Wen Ho Lee
           </a>
           )事件讲起。
          </p>
          <blockquote>
           <p>
            李文和（Wen Ho Lee，1939年12月21日－），生于
            <a href="http://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3" title="臺灣">
             臺灣
            </a>
            <a href="http://zh.wikipedia.org/wiki/%E5%8D%97%E6%8A%95" title="南投">
             南投
            </a>
            ，
            <a href="http://zh.wikipedia.org/wiki/%E5%9C%8B%E7%AB%8B%E6%88%90%E5%8A%9F%E5%A4%A7%E5%AD%B8" title="國立成功大學">
             國立成功大學
            </a>
            機械工程學系
            <a href="http://zh.wikipedia.org/wiki/%E5%AD%B8%E5%A3%AB" title="學士">
             學士
            </a>
            ，
            <a href="http://zh.wikipedia.org/wiki/%E5%BE%B7%E5%85%8B%E8%90%A8%E6%96%AF%E5%86%9C%E5%B7%A5%E5%A4%A7%E5%AD%A6" title="德克萨斯农工大学">
             德克薩斯農工大學
            </a>
            （Texas A&amp;M University）博士，於
            <a href="http://zh.wikipedia.org/wiki/1974%E5%B9%B4" title="1974年">
             1974年
            </a>
            歸化為美國
            <a href="http://zh.wikipedia.org/wiki/%E5%85%AC%E6%B0%91" title="公民">
             公民
            </a>
            。他曾在
            <a href="http://zh.wikipedia.org/wiki/%E7%BE%8E%E5%9C%8B" title="美國">
             美國
            </a>
            <a href="http://zh.wikipedia.org/wiki/%E6%B4%9B%E6%96%AF%E9%98%BF%E6%8B%89%E8%8E%AB%E6%96%AF%E5%9C%8B%E5%AE%B6%E5%AF%A6%E9%A9%97%E5%AE%A4" title="洛斯阿拉莫斯國家實驗室">
             洛斯阿拉莫斯國家實驗室
            </a>
            爲
            <a href="http://zh.wikipedia.org/wiki/%E5%8A%A0%E5%B7%9E%E5%A4%A7%E5%AD%B8" title="加州大學">
             加州大學
            </a>
            工作。他于
            <a href="http://zh.wikipedia.org/wiki/1999%E5%B9%B4" title="1999年">
             1999年
            </a>
            被指控爲
            <a href="http://zh.wikipedia.org/wiki/%E4%B8%AD%E8%8F%AF%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9C%8B" title="中華人民共和國">
             中華人民共和國
            </a>
            竊取了關於美國
            <a href="http://zh.wikipedia.org/wiki/%E6%A0%B8%E6%AD%A6%E5%99%A8" title="核武器">
             核武庫
            </a>
            的機密。在調查員收回這些最初的指控之後，政府進行了一輪新的調查並以不正當處理內部資料的罪名控告李文和。
            <a href="http://zh.wikipedia.org/wiki/2000%E5%B9%B4" title="2000年">
             2000年
            </a>
            ，李與
            <a href="http://zh.wikipedia.org/wiki/%E7%BE%8E%E5%9C%8B%E8%81%AF%E9%82%A6%E6%94%BF%E5%BA%9C" title="美國聯邦政府">
             美國聯邦政府
            </a>
            達成訴訟協議：他對一項罪名認罪，政府收回其他58項指控並將其釋放。（
            <a href="http://zh.wikipedia.org/wiki/李文和" target="_blank">
             维基百科
            </a>
            ）
           </p>
          </blockquote>
          <p>
           1998年12月23日，李文和被安排测谎并被告知通过测谎仪检验，但是却被收回Q级cleariance. 在美国国会的询问下，美国能源部请国家研究理事会(
           <a href="http://nationalacademies.org/nrc/" target="_blank">
            National Research Council
           </a>
           , NRC）对测谎仪（polygraph）的准确性做全面研究。国家研究理事会组成了专门委员会来展开研究，
           <a href="http://www.stat.cmu.edu/~fienberg/" target="_blank">
            Stephen E. Fienberg
           </a>
           当时就是这个委员会的主席。
          </p>
          <p>
           委员会对于在2002年10月公布了
           <a href="http://www.nap.edu/catalog.php?record_id=10420" target="_blank">
            报告结果
           </a>
           。报告中用了非常规的统计方法总结了历史上曾经对测谎仪的进行的测试。对于一个仪器的准确度的衡量可以用
           <a href="http://en.wikipedia.org/wiki/Receiver_operating_characteristic" target="_blank">
            ROC cruve
           </a>
           . 但如何把多个研究结果中的ROC cruves 结合在一起分析呢？一维数据还好总结，可当数据是一些 ROC curves时怎么办呢？ 委员会对选择用 ROC cruve 下的面积（Area Under the Cruve）把这些曲线排序（下图中每个有符号连接曲线对应一个历史上的研究）。图中的两条实线对应AUC为0.81和0.91（0.25和0.75分位数）的两条人为划的线，他们之间刚好包含了50％的数据。用这些数据分析结果（更详细的在报告中），委员会建议历史上对测谎仪的准确度的研究并不能对测谎仪的准确性提供说服性的支持，建议减少测谎仪在使用。
          </p>
          <p>
           <a href="http://www.stat.cmu.edu/%7Efienberg/MagicLasso-StatSci-2005.pdf">
            <img src="http://i.imgur.com/iSqyl.jpg"/>
           </a>
          </p>
          <p>
           2003年9月4日，国会听证会上能源部副部长Kyle McSlarrow和Stephen E. Fienberg教授同时在国会作证。在Stephen后来的统计文章，
           <a href="http://www.stat.cmu.edu/%7Efienberg/MagicLasso-StatSci-2005.pdf" target="_blank">
            In Search of the Magic Lasso: The Truth About the Polygraph
           </a>
           by
           <em>
            Stephen E. Fienberg and Paul C. Stern
           </em>
           (Statistical Science, 2005, Vol. 20, No. 3, 249–260)，中，对听证会的有趣细节有详细描述。文章最后的结论很有启发：
          </p>
          <blockquote>
           <p>
            Our report had had a real impact on public policy, although not as big an impact as we might have liked! And clearly, the thought and ef- fort that had gone into the presentation of the data and the results, and in particular into the two tables, had paid. This was not a case of “how to lie with statistics,” but the reverse. It was a triumph for careful statistical analysis and presentation, telling the truth about what we know about attempts to detect lying.
           </p>
          </blockquote>
          <div class="wp-caption alignright" style="width: 130px">
           <a href="http://upload.wikimedia.org/wikipedia/en/5/58/WonderWomanV5.jpg">
            <img src="http://upload.wikimedia.org/wikipedia/en/5/58/WonderWomanV5.jpg"/>
           </a>
           <p class="wp-caption-text">
            Wonder Woman with Golden Lasso
           </p>
          </div>
          <p>
          </p>
          <p>
           另外还从文章中学了点可以告诉家里小人的知识：
          </p>
          <p>
           在试验和法律实践中用血压变化纪录来分析是否欺骗的想法可以追诉到
           <a href="http://en.wikipedia.org/wiki/William_Moulton_Marston" target="_blank">
            William Moulton Marston
           </a>
           在哈佛大学做研究生时（1915 to 1921）的工作。
          </p>
          <p>
           后来他最出名的是1940年出版了第一个以女性为主角的漫画书：
           <a href="http://en.wikipedia.org/wiki/Wonder_Woman" target="_blank">
            Wonder Woman
           </a>
           。最近给小人讲故事时，Wonder Woman经常晃着她的黄金套索 (Golden Lasso)闲逛找坏人, 套上谁TA就会说真话。
          </p>
          <p>
           看来也是用漫画对未完的研究给个希望的寄托吧。
          </p>
         </div>
         <!--entry -->
        </div>
        <!-- .entry-container -->
        <footer class="post-footer postdata fix">
         <span class="author">
          <span class="icon">
          </span>
          Posted by
          <span class="vcard">
           <a class="url fn" href="http://blog.cos.name/taoshi/author/taoshi/" rel="author">
            施涛
           </a>
          </span>
          at 14:36
         </span>
         <span class="tags tax">
          <span class="icon">
          </span>
          Tagged with:
          <a href="http://blog.cos.name/taoshi/tag/roc-cruve/" rel="tag">
           ROC cruve
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/wonder-woman/" rel="tag">
           Wonder Woman
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%9d%8e%e6%96%87%e5%92%8c/" rel="tag">
           李文和
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e6%b5%8b%e8%b0%8e%e4%bb%aa/" rel="tag">
           测谎仪
          </a>
          ,
          <a href="http://blog.cos.name/taoshi/tag/%e9%bb%84%e9%87%91%e5%a5%97%e7%b4%a2/" rel="tag">
           黄金套索
          </a>
         </span>
        </footer>
        <!-- .post-footer -->
       </article>
       <!--post -->
       <div class="page-nav fix">
        <span class="previous-entries">
         <a href="http://blog.cos.name/taoshi/category/%E7%BB%9F%E8%AE%A1%E5%BA%94%E7%94%A8/page/2/">
          <span class="icon">
          </span>
          Older Entries
         </a>
        </span>
        <span class="next-entries">
        </span>
       </div>
       <!-- page nav -->
      </div>
      <!-- content -->
     </div>
     <!-- main col -->
     <div class="sidebar-shell sidebar-shell-right" id="sidebar-shell-1">
      <div class="dbx-group right boxed warea" id="sidebar">
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_recent_entries" id="recent-posts-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          近期文章
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/25/%ef%bc%bb%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%bd%e4%bb%8e%e5%ad%a6%e4%b9%a0%e6%95%b0%e5%ad%a6%e5%85%ac%e5%bc%8f%e5%88%b0%e5%ae%9e%e8%b7%b5%e7%bb%9f%e8%ae%a1%e5%88%86%e6%9e%90/">
            [朝花夕拾] 从学习数学公式到实践统计分析
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/12/%e6%9c%9d%e8%8a%b1%e5%a4%95%e6%8b%be%ef%bc%9a%e8%bf%8e%e6%8e%a5%e4%bf%a1%e6%81%af%e6%97%b6%e4%bb%a3%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%8c%91%e6%88%98/">
            [朝花夕拾] 迎接信息时代的统计挑战
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/04/13/%e5%a4%b1%e8%81%94%e6%90%9c%e6%95%91%e4%b8%ad%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/">
            失联搜救中的统计数据分析
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/02/13/%e6%96%b0%e5%b9%b4%e5%88%b0%ef%bc%8c%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%88%e4%b9%8b%e4%b8%80%ef%bc%89%e5%a4%a7%e5%ae%b6%e5%a6%82%e4%bd%95%e5%8f%91%e7%ba%a2%e5%8c%85%ef%bc%9f/">
            新年到，发红包（之一）大家如何发红包？
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/10/03/%e7%bd%91%e4%b8%8a%e9%97%ae%e5%8d%b7%ef%bc%8c%e7%bc%ba%e5%a4%b1%e6%95%b0%e6%8d%ae%e5%92%8c%e6%95%b0%e6%8d%ae%e9%9a%90%e7%a7%81/">
            网上问卷，缺失数据和数据隐私
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/08/28/%e8%88%aa%e6%b5%b7%e5%ae%b61%e5%8f%b7%e7%a6%bb%e5%bc%80%e5%a4%aa%e9%98%b3%e7%b3%bb%e4%ba%86%e5%90%97%ef%bc%9f/">
            航海家1号离开太阳系了吗？
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_archive" id="archives-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          文章归档
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/05/">
            2014年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/04/">
            2014年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2014/02/">
            2014年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/10/">
            2013年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/08/">
            2013年八月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/07/">
            2013年七月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/06/">
            2013年六月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/05/">
            2013年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/04/">
            2013年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/02/">
            2013年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2013/01/">
            2013年一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/12/">
            2012年十二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/11/">
            2012年十一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/10/">
            2012年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/08/">
            2012年八月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/07/">
            2012年七月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/06/">
            2012年六月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/05/">
            2012年五月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/04/">
            2012年四月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2012/02/">
            2012年二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/12/">
            2011年十二月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/11/">
            2011年十一月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/10/">
            2011年十月
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/2011/09/">
            2011年九月
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_categories" id="categories-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          分类目录
         </h3>
         <ul>
          <li class="cat-item cat-item-91">
           <a href="http://blog.cos.name/taoshi/category/%e4%bd%93%e8%82%b2/">
            体育
           </a>
           (2)
          </li>
          <li class="cat-item cat-item-63">
           <a href="http://blog.cos.name/taoshi/category/%e5%aa%92%e4%bd%93%e6%8a%a5%e9%81%93/">
            媒体报道
           </a>
           (12)
          </li>
          <li class="cat-item cat-item-152">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%99%e8%82%b2/">
            教育
           </a>
           (6)
          </li>
          <li class="cat-item cat-item-61">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/">
            数据分析
           </a>
           (22)
          </li>
          <li class="cat-item cat-item-23">
           <a href="http://blog.cos.name/taoshi/category/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/">
            数据挖掘
           </a>
           (7)
          </li>
          <li class="cat-item cat-item-62">
           <a href="http://blog.cos.name/taoshi/category/%e7%a7%91%e5%ad%a6/">
            科学
           </a>
           (7)
          </li>
          <li class="cat-item cat-item-84">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1/">
            统计
           </a>
           (22)
          </li>
          <li class="cat-item cat-item-83">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%92%a8%e8%af%a2/">
            统计咨询
           </a>
           (3)
          </li>
          <li class="cat-item cat-item-66 current-cat">
           <a href="http://blog.cos.name/taoshi/category/%e7%bb%9f%e8%ae%a1%e5%ba%94%e7%94%a8/">
            统计应用
           </a>
           (15)
          </li>
          <li class="cat-item cat-item-76">
           <a href="http://blog.cos.name/taoshi/category/%e8%81%8c%e4%b8%9a%e4%bb%8b%e7%bb%8d/">
            职业介绍
           </a>
           (5)
          </li>
          <li class="cat-item cat-item-124">
           <a href="http://blog.cos.name/taoshi/category/%e8%af%bb%e4%b9%a6/">
            读书
           </a>
           (2)
          </li>
          <li class="cat-item cat-item-77">
           <a href="http://blog.cos.name/taoshi/category/%e8%bd%ac%e8%bd%bd/">
            转载
           </a>
           (1)
          </li>
          <li class="cat-item cat-item-3">
           <a href="http://blog.cos.name/taoshi/category/%e9%97%b2%e6%89%af/">
            闲扯
           </a>
           (14)
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_links" id="linkcat-125">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          链接链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://www.statsblogs.com">
            Statsblogs
           </a>
          </li>
          <li>
           <a href="http://www.matrix67.com/blog/">
            Matrix67
           </a>
          </li>
          <li>
           <a href="http://cos.name">
            统计之都
           </a>
          </li>
          <li>
           <a href="http://www.itongji.cn">
            中国统计网
           </a>
          </li>
          <li>
           <a href="http://www.loyhome.com">
            落园
           </a>
          </li>
          <li>
           <a href="http://yihui.name/cn/">
            歇一会
           </a>
          </li>
          <li>
           <a href="http://yixuan.cos.name/cn/">
            怡然軒
           </a>
          </li>
          <li>
           <a href="http://www.puddingnnn.com">
            他山布丁
           </a>
          </li>
          <li>
           <a href="http://www.bjt.name">
            刘思喆@贝吉塔行星
           </a>
          </li>
          <li>
           <a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=2024">
            熵.复杂程度.统计.气象.水
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_tag_cloud" id="tag_cloud-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          Tags
         </h3>
         <div class="tagcloud">
          <a class="tag-link-60 tag-link-position-1" href="http://blog.cos.name/taoshi/tag/5%cf%83/" style="font-size: 8pt;" title="1个话题">
           5σ
          </a>
          <a class="tag-link-8 tag-link-position-2" href="http://blog.cos.name/taoshi/tag/air-pollution/" style="font-size: 8pt;" title="1个话题">
           air pollution
          </a>
          <a class="tag-link-24 tag-link-position-3" href="http://blog.cos.name/taoshi/tag/berkeley/" style="font-size: 22pt;" title="5个话题">
           Berkeley
          </a>
          <a class="tag-link-4 tag-link-position-4" href="http://blog.cos.name/taoshi/tag/black-box/" style="font-size: 8pt;" title="1个话题">
           black box
          </a>
          <a class="tag-link-138 tag-link-position-5" href="http://blog.cos.name/taoshi/tag/critical-thinking/" style="font-size: 13.25pt;" title="2个话题">
           critical thinking
          </a>
          <a class="tag-link-139 tag-link-position-6" href="http://blog.cos.name/taoshi/tag/david-a-freedman/" style="font-size: 16.75pt;" title="3个话题">
           David A. Freedman
          </a>
          <a class="tag-link-44 tag-link-position-7" href="http://blog.cos.name/taoshi/tag/discovery/" style="font-size: 8pt;" title="1个话题">
           discovery
          </a>
          <a class="tag-link-9 tag-link-position-8" href="http://blog.cos.name/taoshi/tag/fine-particulate-matter/" style="font-size: 8pt;" title="1个话题">
           fine particulate matter
          </a>
          <a class="tag-link-53 tag-link-position-9" href="http://blog.cos.name/taoshi/tag/leo-breiman/" style="font-size: 8pt;" title="1个话题">
           Leo Breiman
          </a>
          <a class="tag-link-10 tag-link-position-10" href="http://blog.cos.name/taoshi/tag/meta-analysis/" style="font-size: 8pt;" title="1个话题">
           meta-analysis
          </a>
          <a class="tag-link-18 tag-link-position-11" href="http://blog.cos.name/taoshi/tag/national-public-radio/" style="font-size: 8pt;" title="1个话题">
           national public radio
          </a>
          <a class="tag-link-19 tag-link-position-12" href="http://blog.cos.name/taoshi/tag/npr/" style="font-size: 8pt;" title="1个话题">
           NPR
          </a>
          <a class="tag-link-54 tag-link-position-13" href="http://blog.cos.name/taoshi/tag/peter-bickel/" style="font-size: 8pt;" title="1个话题">
           Peter Bickel
          </a>
          <a class="tag-link-11 tag-link-position-14" href="http://blog.cos.name/taoshi/tag/pm2-5/" style="font-size: 8pt;" title="1个话题">
           pm2.5
          </a>
          <a class="tag-link-6 tag-link-position-15" href="http://blog.cos.name/taoshi/tag/prediction/" style="font-size: 8pt;" title="1个话题">
           prediction
          </a>
          <a class="tag-link-30 tag-link-position-16" href="http://blog.cos.name/taoshi/tag/probability/" style="font-size: 8pt;" title="1个话题">
           probability
          </a>
          <a class="tag-link-12 tag-link-position-17" href="http://blog.cos.name/taoshi/tag/ralph-kahn/" style="font-size: 8pt;" title="1个话题">
           Ralph Kahn
          </a>
          <a class="tag-link-13 tag-link-position-18" href="http://blog.cos.name/taoshi/tag/satellite/" style="font-size: 8pt;" title="1个话题">
           satellite
          </a>
          <a class="tag-link-45 tag-link-position-19" href="http://blog.cos.name/taoshi/tag/social-study/" style="font-size: 8pt;" title="1个话题">
           social study
          </a>
          <a class="tag-link-179 tag-link-position-20" href="http://blog.cos.name/taoshi/tag/statistics/" style="font-size: 16.75pt;" title="3个话题">
           Statistics
          </a>
          <a class="tag-link-20 tag-link-position-21" href="http://blog.cos.name/taoshi/tag/super-bowl-ads/" style="font-size: 8pt;" title="1个话题">
           Super Bowl Ads
          </a>
          <a class="tag-link-26 tag-link-position-22" href="http://blog.cos.name/taoshi/tag/terry-speed/" style="font-size: 8pt;" title="1个话题">
           Terry Speed
          </a>
          <a class="tag-link-46 tag-link-position-23" href="http://blog.cos.name/taoshi/tag/twitter-2/" style="font-size: 8pt;" title="1个话题">
           Twitter
          </a>
          <a class="tag-link-14 tag-link-position-24" href="http://blog.cos.name/taoshi/tag/yang-liu/" style="font-size: 8pt;" title="1个话题">
           Yang Liu
          </a>
          <a class="tag-link-31 tag-link-position-25" href="http://blog.cos.name/taoshi/tag/%e4%ba%ba%e5%8f%a3%e6%99%ae%e6%9f%a5/" style="font-size: 8pt;" title="1个话题">
           人口普查
          </a>
          <a class="tag-link-93 tag-link-position-26" href="http://blog.cos.name/taoshi/tag/%e5%8f%b6%e8%af%97%e6%96%87/" style="font-size: 13.25pt;" title="2个话题">
           叶诗文
          </a>
          <a class="tag-link-114 tag-link-position-27" href="http://blog.cos.name/taoshi/tag/%e5%a4%a7%e6%95%b0%e6%8d%ae/" style="font-size: 19.666666666667pt;" title="4个话题">
           大数据
          </a>
          <a class="tag-link-74 tag-link-position-28" href="http://blog.cos.name/taoshi/tag/%e5%a5%a5%e6%9e%97%e5%8c%b9%e5%85%8b/" style="font-size: 16.75pt;" title="3个话题">
           奥林匹克
          </a>
          <a class="tag-link-58 tag-link-position-29" href="http://blog.cos.name/taoshi/tag/%e5%b8%8c%e6%a0%bc%e6%96%af%e7%8e%bb%e8%89%b2%e5%ad%90/" style="font-size: 8pt;" title="1个话题">
           希格斯玻色子
          </a>
          <a class="tag-link-21 tag-link-position-30" href="http://blog.cos.name/taoshi/tag/%e5%b9%bf%e5%91%8a/" style="font-size: 8pt;" title="1个话题">
           广告
          </a>
          <a class="tag-link-22 tag-link-position-31" href="http://blog.cos.name/taoshi/tag/%e6%83%85%e7%bb%aa%e9%a2%84%e6%b5%8b/" style="font-size: 8pt;" title="1个话题">
           情绪预测
          </a>
          <a class="tag-link-180 tag-link-position-32" href="http://blog.cos.name/taoshi/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" style="font-size: 13.25pt;" title="2个话题">
           数据挖掘
          </a>
          <a class="tag-link-47 tag-link-position-33" href="http://blog.cos.name/taoshi/tag/%e6%96%b0%e6%b5%aa%e6%96%b0%e9%97%bb/" style="font-size: 8pt;" title="1个话题">
           新浪新闻
          </a>
          <a class="tag-link-59 tag-link-position-34" href="http://blog.cos.name/taoshi/tag/%e6%ac%a7%e6%b4%b2%e5%a4%a7%e5%9e%8b%e5%bc%ba%e5%ad%90%e5%af%b9%e6%92%9e%e6%9c%ba/" style="font-size: 8pt;" title="1个话题">
           欧洲大型强子对撞机
          </a>
          <a class="tag-link-15 tag-link-position-35" href="http://blog.cos.name/taoshi/tag/%e6%b0%91%e7%a7%91/" style="font-size: 8pt;" title="1个话题">
           民科
          </a>
          <a class="tag-link-27 tag-link-position-36" href="http://blog.cos.name/taoshi/tag/%e7%94%b7%e5%a5%b3%e6%af%94%e4%be%8b/" style="font-size: 8pt;" title="1个话题">
           男女比例
          </a>
          <a class="tag-link-48 tag-link-position-37" href="http://blog.cos.name/taoshi/tag/%e7%95%99%e5%ad%a6%e7%94%b3%e8%af%b7/" style="font-size: 8pt;" title="1个话题">
           留学申请
          </a>
          <a class="tag-link-50 tag-link-position-38" href="http://blog.cos.name/taoshi/tag/%e7%b2%be%e7%ae%97%e5%b8%88/" style="font-size: 8pt;" title="1个话题">
           精算师
          </a>
          <a class="tag-link-183 tag-link-position-39" href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1/" style="font-size: 19.666666666667pt;" title="4个话题">
           统计
          </a>
          <a class="tag-link-51 tag-link-position-40" href="http://blog.cos.name/taoshi/tag/%e7%bb%9f%e8%ae%a1%e5%ad%a6%e5%ae%b6/" style="font-size: 8pt;" title="1个话题">
           统计学家
          </a>
          <a class="tag-link-64 tag-link-position-41" href="http://blog.cos.name/taoshi/tag/%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4/" style="font-size: 13.25pt;" title="2个话题">
           置信区间
          </a>
          <a class="tag-link-17 tag-link-position-42" href="http://blog.cos.name/taoshi/tag/%e8%b6%85%e7%ba%a7%e7%a2%97/" style="font-size: 8pt;" title="1个话题">
           超级碗
          </a>
          <a class="tag-link-41 tag-link-position-43" href="http://blog.cos.name/taoshi/tag/%e9%92%9f%e5%b1%b1%e8%af%b4%e4%ba%8b/" style="font-size: 8pt;" title="1个话题">
           钟山说事
          </a>
          <a class="tag-link-16 tag-link-position-44" href="http://blog.cos.name/taoshi/tag/%e9%9d%9e%e8%af%9a%e5%8b%bf%e6%89%b0/" style="font-size: 8pt;" title="1个话题">
           非诚勿扰
          </a>
          <a class="tag-link-42 tag-link-position-45" href="http://blog.cos.name/taoshi/tag/%e9%ab%98%e8%80%83/" style="font-size: 8pt;" title="1个话题">
           高考
          </a>
         </div>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget-suf-subscription" id="suf-subscription-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          Follow Me
         </h3>
         <form action="http://feedburner.google.com/fb/a/mailverify" class="aligncenter" method="post" onsubmit="window.open('http://feedburner.google.com/fb/a/mailverify?uri=your-feed-name', 'popupwindow', 'scrollbars=yes,width=550,height=520');return true" target="popupwindow">
          <p>
          </p>
         </form>
         <div class="fix">
         </div>
        </div>
       </aside>
       <!--widget end -->
       <!--widget start -->
       <aside class="dbx-box suf-widget widget_meta" id="meta-2">
        <div class="dbx-content">
         <h3 class="dbx-handle plain">
          功能
         </h3>
         <ul>
          <li>
           <a href="http://blog.cos.name/taoshi/wp-login.php">
            登录
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/feed/">
            文章
            <abbr title="Really Simple Syndication">
             RSS
            </abbr>
           </a>
          </li>
          <li>
           <a href="http://blog.cos.name/taoshi/comments/feed/">
            评论
            <abbr title="Really Simple Syndication">
             RSS
            </abbr>
           </a>
          </li>
          <li>
           <a href="https://cn.wordpress.org/" title="基于WordPress，一个优美、先进的个人信息发布平台。">
            WordPress.org
           </a>
          </li>
         </ul>
        </div>
       </aside>
       <!--widget end -->
      </div>
      <!--/sidebar -->
     </div>
    </div>
    <!-- /container -->
    <footer>
     <div id="cred">
      <table>
       <tbody>
        <tr>
         <td class="cred-left">
          © 2013
          <a href="http://blog.cos.name/taoshi">
           从数据中看规律
          </a>
         </td>
         <td class="cred-center">
         </td>
         <td class="cred-right">
          <a href="http://aquoid.com/news/themes/suffusion/">
           Suffusion theme by Sayontan Sinha
          </a>
         </td>
        </tr>
       </tbody>
      </table>
     </div>
    </footer>
    <!-- 68 queries, 49MB in 0.640 seconds. -->
   </div>
   <!--/wrapper -->
   <!-- location footer -->
  </div>
 </body>
</html>